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摘要 : [ 目的 /意义 ] 在 新 冠 疫情 背景 下 ,， 提 出 多 任务 环境 下 融合 迁移 学 习 的 疫情 新 闻 要 素 识 别 方法 ， 
向 公众 提供 面向 应 急事 件 的 知识 服务 。[ 方法 / 过 程 ] 首先 ， 通 过 多 任务 识别 新 闻 要 素 : 基于 规则 识别 
时 间 要 素 ; 并 融合 模型 迁移 与 深度 学 习 方 法 ， 构 建 跨 领 域 的 要 素 识 别 模型 。 在 此 基础 上 ， 构 建 疫 情 新 闻 
要 素 的 关联 数据 ， 以 知识 图 谱 的 方式 展示 各 要 素 之 间 的 关联 关系 。 [结果 /结论 ] 实验 结果 表明 ， 除 药 
物 外 的 新 闻 要 素 的 识别 Fl 值 均 在 80% 以 上 , 说 明 融 合 迁 移 学 习 的 模型 能 够 取得 较 优 的 识别 效果 ; 并 且 ， 
关联 数据 知识 图 谱 能 够 直观 显示 新 闻 的 重点 要 素 及 新 闻 的 主要 内 容 。 综 上 所 述 ， 提 出 的 方法 能 够 有 效 识 
别 新 冠 疫情 新 闻 要 素 ， 从 而 帮助 新 闻 读 者 准确 、 高 效 地 获取 新 闻 中 的 重要 信息 。 
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爆炸 式 增长 的 新 闻 报道 给 公众 带 来 了 一 定 程度 

自 2020 年 初 ， 官 方正 式 通报 新 型 冠状 肺炎 E in edwin i 

T MARNA 的 心理 压力 和 阅读 负担 。 因 此 ， 有 必要 快速 、 

(以 下 简称 “新 冠 ”) 存在 “人 传人 ”现象 以 准确 地 提取 新 闻 报 道中 的 关键 要 素 ， 帮 助 公众 
来 ， 社 会 公众 愈 发 关注 新 冠 疫情 的 相关 新 闻 动 


获取 并 理解 新 闻 的 主要 内 容 ， 并 为 进一步 构建 
态 。 新 塞 } 情 新 闻 大 日 站 AN We ES 态 、 l j 
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工作 奠定 基础 。 
新 闻 要 素 通常 包括 时 间 、 人 物 、 地 点 、 机 
构 4 类 基本 要 素 ， 而 新 冠 疫情 新 闻 在 此 基础 上 
还 涉及 疾病 名 称 、 发 病症 状 、 药 物 名 称 、 诊 断 
或 治疗 方法 等 医学 要 素 ， 因 此 新 冠 疫情 新 闻 要 
素 识别 需要 对 路 领域 的 多 个 类 别 的 要 素 进 行 识 
别 ， 这 就 涉及 到 多 任务 、 多 过 程 的 要 素 识 别 。 
时 间 要 素 的 表述 形式 具有 较 强 的 规律 性 ， 基 于 
规则 模板 能 够 较 准 确 地 对 其 进行 识别 上 1， 因 此 
笔者 采取 基于 规则 的 要 素 识别 方法 识别 时 间 要 
AR; 而 对 于 人 名 、 地 名 、 机 构 名 3 类 基本 要 素 
以 及 疾病 、 症 状 、 药 物 、 方 法 4 类 医学 要 素 ， 
利用 基于 现 有 深度 学 习 模 型 的 命名 实体 识别 
( Named Entity Recognition, NER ) 方法 进行 识别 ， 
但 是 ,疫情 新 闻 作 为 一 类 新 型 应 急 信息 资源 ， 目 
前 该 领域 尚 存在 缺乏 供 NER 模型 训练 的 标注 数 
据 这 一 数据 冷 启 动 问 题 ， 为 此 ， 笔 者 引入 迁移 学 
习 思 想 ， 设 计 了 路 领域 迁移 的 实体 识别 模型 。 
笔者 基于 NER 领域 较为 成 熟 的 BERT- 
BiLSTM-CRF 三 层 结 构 模 型 ， 分 别 利 用 MSRA 
数据 集 和 医学 领域 数据 集训 练 可 迁移 的 NER 模 
型 ， 并 将 该 模型 应 用 于 新 冠 疫情 新 闻 领 域 的 要 
素 识 别 。 最 后 ， 通 过 构建 基于 共 现 频次 的 要 素 
关联 数据 ， 以 知识 图 谱 的 方式 可 视 化 地 展现 疫 
情 新 闻 要 素 间 的 关联 关系 ， 从 而 清晰 、 直 观 地 
揭示 疫情 新 闻 的 主要 内 容 。 


@ 近 期 相关 研究 


新 闻 文本 要 素 的 识别 与 提取 是 信息 抽取 领 
域 的 研究 热点 之 一 ， 在 以 往 的 实践 中 大 多 采用 
基于 词典 “7 、 基 于 规则 ”或 基于 统计 机 器 学 
习 OO 的 方法 进行 。 近 年 来 ， 随 着 深度 学 习 研 
究 的 逐渐 成 熟 ， 基 于 深度 神经 网 络 的 命名 实体 
识别 也 成 为 新 闻 要 素 识 别 的 重要 支撑 技术 "。 

相 比 传统 机 器 学 习 算 法 ， 深 度 学 习 模 型 具有 网 
络 层 数 更 深 、 学习 特 征 更 加 复杂 且 无 需 人 工 构 
建 特征 等 优势 ""。 近 年 来 提出 的 双向 长 短 时 记 
忆 网 络 (Bidirectional Long Short-Term Memory, 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2021 (1) :2-13 
DOI: 10.13266/j.issn.2095-5472.2021.001 


BiLSTM ) "" t AA F EE A SE IY Td 
的 隐 层 表示 ， 能 够 极 大 程度 地 揭示 句 中 实体 的 
依赖 关系 ， 因 此 被 广泛 应 用 于 NER 任务。 研究 
表明 ， 将 BiLSTM 与 条 件 随 机 场 (Conditional 
Random Field, CRF ) 相 结 合 能够 有 效 提 高 模型 
JORU, RAR A HAAF 2018 年 发 布 的 字 表 
示 模 型 BERT”), alr S11 项 自然 语言 处 理 任 
务 的 记录 。 将 BERT 中 文 预 训练 模型 ( BERTBase， 
Chinese ) 与 识别 效果 较 好 的 BILSTM-CRF 模型 
结合 ， 被 多 项 研究 证 实 能 够 取得 中 文 NER 的 最 
优 效果 P71, 

深度 学 习 模 型 由 于 学 习 能 力 极 强 ， 易 出 现 
过 拟 合 问题 ， 因 此 需要 庞大 规模 的 标注 数据 作 
为 训练 集 ， 而 部 分 领域 由 于 缺乏 足够 的 训练 数 
据 而 存在 数据 冷 启动 问题 。 为 了 解决 这 一 问题 ， 
迁移 学 习 (Transfer Learning ) P” 的 概念 应 运 而 
生 ， 其 将 在 源 领域 学 习 到 的 知识 应 用 于 与 源 领 
域 不 同 但 相关 的 目标 领域 的 任务 中 ， 利 用 源 领 
域 的 标注 数据 训练 可 供 目 标 领 域 应 用 的 模型 。 
迁移 学 习 主 要 包括 基于 实例 、 基 于 特征 和 基于 
模型 的 迁移 学 习 ， 基 于 实例 的 迁移 学 习 的 原理 
是 将 与 目标 领域 实例 相似 的 源 领 域 样本 加 入 训 
练 集 ， 以 扩充 数据 量 吕 ;基于 特征 的 迁移 学 
习 是 指 通过 一 定 的 方法 ， 获 取 并 利用 源 领 域 与 
目标 领域 之 间 共 同 的 特征 表示 ， 从 而 实现 表示 
层面 的 迁移 “1;， 基 于 模型 的 迁移 学 习 是 将 基 
于 源 领 域 数据 训练 的 模型 及 参数 迁移 至 目标 领 
域 ”模型 迁移 学 习 基 于 大 量 源 领域 数据 训 
练 得 到 具有 较 强 泛 化 能 力 的 预 训 练 模型 ， 能 够 
较 好 地 适应 目标 领域 的 数据 分 布 ， 从 而 取得 较 
优 的 迁移 效果 , 因此 被 广泛 应 用 于 NER 领域 ML 
Al-Smadi 等 构建 了 基于 迁移 学 习 的 多 语言 通用 
语句 编码 器 ， 并 将 其 应 用 于 复杂 阿拉 伯 语 语 境 
下 的 实体 识别 任务 P; 刘 宇 飞 等 将 公共 领域 源 
知识 迁移 至 科学 领域 ， 进 而 对 专利 文献 中 的 科 
学 术语 进行 识别 5; 孔 祥 脑 等 提出 基于 迁移 学 
习 的 联合 深度 模型 ， 通 过 共享 网 络 隐 藏 层 以 及 
BP 算法 微调 参数 的 方法 训练 跨 语 言 迁移 模型 ， 
有 效 提升 了 维吾尔 语 NER 任务 的 成 绩 已。 
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上 述 研 究 构 建 的 迁移 学 习 模 型 均 取 得 了 较 
好 的 实体 识别 效果 ,但 是 尚未 考察 以 医学 论文 
语 料 作 为 源 领域 训练 数据 的 模型 效果 。 考 虑 到 
新 冠 疫情 新 闻 是 一 种 面向 当下 应 急事 件 的 即时 
言 息 资 源 ， 领 域内 尚 缺乏 大 规模 的 标注 语 料 ， 
笔者 融合 模型 迁移 与 深度 学 习 方法 ， 以 医学 论 
文 文本 作为 源 领域 数据 集 ， 基 于 学 习 效果 较 优 
的 BERT-BiLSTM-CRF 三 层 结构 模型 ， 训 练 实 
体 识别 模型 ， 并 将 模型 应 用 于 疫情 新 闻 要 素 的 
识别 。 
图 数据 与 方法 
3.1 数据 来 源 及 预 处 理 

笔者 选取 洁 浒 新闻 发 布 的 新 冠 疫情 专题 系 
列 报道 作为 新 冠 疫 情 新 闻 文 本 的 数据 来 源 。 由 
于 澎 汶 新 闻 在 我 国 新 闻 媒 体 网 站 排行 榜 排 名 居 
于 前 列 中 I， 其 文章 质量 较 高 ， 用 词 和 句法 较为 
规范 和 标准 ， 因 此 适用 于 新 闻 要 素 抽取 。 基 于 
模型 迁移 学 习 的 思想 ， 笔 者 确定 以 下 两 个 源 领 
域 训练 数据 集 : 中 微软 亚洲 研究 院 (MSRA ) 数 
据 集 ， 是 中 文 NER 任务 的 常用 数据 集 ， 其 语 料 
含 27 000 余 个 句子 ,在 本 研究 中 将 其 用 于 识别 
人 和 名、 地 名 、 机 构 名 3 类 基本 要 素 的 基本 要 素 
识别 模型 的 训练 ;四 医学 文本 数据 集 ， 来 源 为 
中 国 知 网 平台 新 冠 相关 主题 的 中 文 医 学 论文 题 
录 数 据 , 通过 对 论文 题 录 数据 进行 处 理 后 获得 ， 
其 语 料 含 12 000 余 个 句子 ,用 于 识别 疾病 症状 、 
药物 、 方 法 4 类 医学 要 素 的 医学 要 素 识别 模型 
的 训练 。 源 领域 数据 集 采 用 IOB 格式 进行 实体 
标注 ，B 表示 对 应 类 别 实体 的 起 始 字 符 ，I 表 示 
实体 中 的 其 他 字符 ,O 表示 非 实 体 字符 ,如 B-PER 
表示 人 名 实体 的 起 始 字符 ，LMETHOD 表示 方 
法 实体 中 的 非 起 始 字符 等 。 

笔者 采用 半 监 督 的 处 理 方法 获得 带 标签 
的 医学 文本 数据 集 ， 有 具体 处 理 过 程 如 下 : 中 以 


“SU=” 新 冠 ”+ “新 型 冠状 病毒 ”+ “武汉 
肺炎 ” + “2019-ncov” +”covid-19”” 作 为 检 


索 式 ， 使 用 中 国 知 网 专业 检索 功能 ， 搜 索 医 药 
卫生 科技 分 类 下 发 表 时 间 在 “2020-02-01” 后 的 
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中 文 论文 ， 将 检索 结果 显示 的 6 000 条 论文 题 录 
数据 批量 下 载 并 保存 ; 名 提取 题 录 数 据 中 的 关 
键 词 字 段 ， 人 工 对 关键 词 进行 实体 类 别 标注 ， 
共 得 到 530 个 标注 后 的 关键 词 数据 ; 名 使 用 知 
网 (Hownet ) 近义词 词典 ， 结 合 人 工 补 充 的 方 
式 ， 将 原 词 的 近义词 标注 为 与 原 词 相同 的 类 别 
并 补充 人 关键 词 集 ， 扩 充 后 的 关键 词 集 包 含 607 
个 关键 词 ; 由 提取 题 录 数 据 中 的 全 部 摘要 字段 ， 
通过 最 大 匹配 算法 ,使 用 标注 关键 词 集 匹配 摘 
要 文本 中 的 句子 ， 从 而 生成 包含 12 000 ARS 
医学 实体 句子 的 医学 文本 语 料 。 应 用 这 种 处 理 
方法 ， 只 需要 人 工 标 注 少 量 关键 词 ， 便 能 够 匹 
配 获 得 大 量 包 含 实 体 的 句子 ， 大 大 减少 了 人 工 
标注 的 时 间 开 销 。 
3.2 研究 框架 

为 实现 新 冠 疫 情 新 闻 要 素 的 自动 化 识别 
及 抽取 ， 笔 者 设计 了 研究 框架 ， 见 图 1。@ 首 
先 ， 进 行 数据 集 的 准备 和 预 处 理工 作 。 分 别 收 
集 MSRA 数据 集 、 医 学 论文 题 录 数据 以 及 新 冠 
疫情 新 闻 文 本 数据 ， 然 后 人 工 标注 医学 论文 题 
录 数 据 中 关键 词 的 实体 类 别 ， 并 拓展 关键 词 数 
量 ， 随 后 利用 拓展 后 的 关键 词 集 匹 配 论文 摘要 
集中 的 句子 ， 得 到 带 有 训练 标签 的 医学 文本 数 
据 集 。 包 基于 源 领 域 数据 集训 练 迁 移 要 素 识 别 
模型 。 使 用 BERT-BiLSTM-CRF 三 层 结构 模型 ， 
分 别 基 于 MSRA 数据 集 和 医学 文本 数据 集训 
练 得 到 能 够 识别 人 物 、 地 点 、 机 构 要 素 的 基本 
要 素 识 别 模型 COV19News-Base 和 能 够 识别 疾 
病 、 症 状 、 药 物 、 方 法 要 素 的 医学 要 素 识 别 模 
型 COV19News-Med， 并 抽取 原 数据 集中 一 定 比 
例 的 样本 作为 测试 集 , 以 检验 模型 的 识别 效果 。 
@ 将 要 素 识 别 模型 应 用 于 新 冠 疫情 新 闻 文本 领 
域 的 要 素 识 别 。 人 工 标注 新 冠 疫情 新 闻 文 本 中 
的 部 分 句子 作为 目标 领域 测试 集 ， 分 别 检验 将 
模 型 COV19News-Base 和 模 型 COV19News- 
Med 应 用 于 新 冠 疫情 新 闻 要 素 识别 的 迁移 效果 。 
@ 最 后 ， 基 于 新 闻 要 素 构 建 要 素 关 联 图 谱 。 使 
用 COV19News-Base 和 COV19News-Med 的 模 
型 组 合 抽取 大 量 疫情 新 闻 文 本 要 素 ， 结 合 基于 
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规则 抽取 的 新 闻 时 间 要 素 ， 构 建新 冠 疫 情 新 闻 
要 素 关 联 数据 ， 并 以 知识 图 谱 的 形式 展现 各 要 


素 之 间 的 关联 关系 ， 以 达到 直观 揭示 新 闻 主 要 
内 容 的 目的 。 


: MSRA 数据 


-----------------------r----------------------------------------------------------------------------， 


COV19News-Base ES | = COV19News-Med 
基于 规则 识别 “一 一 SS 
新 闻 要 素 关联 数据 pe 
1 研究 框架 

基于 此 ， 笔 者 将 主要 解决 以 下 3 个 重要 问 3.3 新 冠 疫情 新 闻 要 素 分 类 
题 : 笔者 试图 实现 8 类 疫情 新 闻 要 素 的 自动 识 
(1) 多 类 别 要 素 的 识别 问题 。 将 划分 多 个 别 和 抽取 ,8 类 要 素 的 名 称 及 示例 见 表 1。 其 中 ， 
要 素 识别 任务 ， 基 于 命名 实体 识别 和 规则 识别 时 间 、 人 物 、 地 点 、 机 构 4 类 要 素 是 描述 新 闻 内 


方法 ,分 别 对 新 冠 疫情 新 闻 中 的 基本 要 素 、 医 
学 要 素 与 时 间 要 素 进 行 识 别 。 

(2 ) 数据 冷 局 动 问题 。 引入 模型 迁移 学 习 ， 
利用 源 领 域 充足 的 标注 数据 训练 可 迁移 的 NER 
模型 ,并 将 其 应 用 于 疫情 新 闻 领域 的 要 素 识 别 ， 
从 而 解决 了 目标 领域 标注 数据 不 充足 的 问题 。 

(3 ) 疫情 新 闻 要 素 的 利用 问题 。 将 提出 的 
要 素 识别 方法 应 用 于 大 量 无 标签 的 疫情 新 闻 文 
本 ， 并 将 识别 的 要 素 及 要 素 间 的 共 现 关系 以 疫 
情 新 闻 要 素 关 联 数据 的 形式 存储 。 基 于 此 ， 进 
一 步 以 要 素 关 联 图 谱 的 形式 可 视 化 展现 要 素 间 
的 关联 关系 ， 从 而 揭示 疫情 新 闻 的 主要 内 容 。 


容 的 基本 要 素 。 此 外 ， 新 冠 疫情 主题 的 新 闻 文 本 
往往 还 包含 疾病 名 称 、 发 病症 状 、 药 物 名 称 、 诊 
断 或 治疗 方法 的 名 称 等 医学 要 素 。 对 于 具体 识别 
哪些 类 别 的 医学 要 素 ， 可 借鉴 前 人 研究 的 经 验 。 
在 2019 年 全 国 知识 图 谱 与 语义 计算 大 会 (CCKS ) 
医疗 命名 实体 识别 任务 中 ， 医 疗 命名 实体 被 划分 
为 6 类 : 疾病 和 诊断 、 检 查 、 检 验 、 手 术 、 药 物 、 
解剖 部 位 路 2017 年 CCKS 定义 了 4 类 医学 实体 . 
身体 部 位 、 症 状 和 体征 、 检 查 和 检验 、 疾 病 和 诊 
WE OOS 赵 青 等 、 夏 光辉 等 将 医疗 实体 划分 为 疾病 、 
症状 、 检 查 、 治 疗 4 类 4。 由 上 述 研究 总 结 ， 
医学 实体 总 共 包 括 5 类 : 疾病 名 称 、 症 状 体征 、 
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药物 、 检 查 和 治疗 方法 以 及 身体 部 位 。 但 身体 部 
位 实体 在 新 闻 领 域 语 境 下 往往 具有 除 患 病 部 位 以 
外 的 含义 ， 如 “握手 言 和 ”中 的 “ 手 ”“ 嘴 上 说 
说 ”中 的 “ 嘴 ” 等 并 非 指 代 患 病 部 位 ， 不 属于 描 
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述 新 闻 内 容 的 关键 要 素 ， 因 此 识别 身体 部 位 实体 
对 提取 新 闻 要 点 的 意义 不 大 。 综 上 所 述 ， 笔 者 最 
终 确 定 将 疾病 、 症 状 、 药 物 、 方 法 4 类 要 素 作 为 
竺 识别 的 医学 要 素 。 


表 1 新 冠 疫情 新 闻 要 素 类 别 及 示例 


要 素 序号 ”要 素 名 称 例句 句 中 要 素 
1 时 间 1 月 24 日 ， 湖 北 省 启动 重大 突 发 公共 卫生 事件 I 级 响应 1 月 24 日 
2 人 物 灿 扬 的 咽 痛 没有 缓解 的 迹象 ， 杨 雪 涛 也 出 现 了 咳嗽 的 症状 灿 扬 ， 杨 雪 涛 
3 也 点 英国 也 有 医院 出 现 了 病人 被 感染 的 情况 英国 
4 机 构 大 学 毕业 后 ， 李 文亮 去 到 厦门 眼科 中 心 工作 厦门 眼科 中 心 
5 疾病 3 月 4 日 ， 新 冠 肺炎 的 海外 传播 发 醇 近 两 月 新 冠 肺炎 
6 症状 5 例 病 例 均 发 伐 ， 无 苦寒 ， 体 温 在 36.3” C-38.0° C 之 间 波 动 RR, RE 
7 药物 药物 方面 ， 他 们 现在 为 密 接 者 提供 了 连 花 清 瘟 胶 才 EAC TH BORE 
8 方法 核酸 检测 会 出 现 一 定 的 假 阴 性 率 核酸 检测 


笔者 通过 多 个 任务 识别 各 类 疫情 新 闻 要 素 。 
对 于 除 时 间 要 素 以 外 的 7 类 要 素 ， 采 取 命 名 实 
体 识别 方法 对 其 进行 识别 ， 基 于 BERTBiLSTM- 
CRE 模型 分 别 训练 基本 要 素 识 别 模型 和 医学 要 
素 识别 模型 ， 对 于 时 间 要 素 ， 采 取 基 于 规则 的 
识别 方法 ， 通 过 构建 正则 表达 式 ， 匹 配 并 获取 
新 闻 文 本 中 的 时 间 要 素 。 匹 配 时 间 要 素 的 正则 
表达 式 模板 如 公式 (1 ) 所 示 : 
pattern=[ r"\d{4} 年 \d{1,2} H \d{1,23[ A |S)", 
rmd{1,2} 月 \d{1,2}[ 日 | 号 ]"， 
r\d{1,2}[ 8 |S" 公式 (1) 
3.4 基于 迁移 学 习 的 COV19News 模型 训练 
由 于 疫情 新 闻 领 域 尚 缺乏 可 供 NER 模型 
训练 的 标注 数据 ， 笔 者 采用 融合 迁移 学 习 的 模 
型 训练 方法 ， 分 别 基 于 MSRA 数据 集 和 医学 
文本 数据 集训 练 模型 COV19News-Base 和 模型 
COV19News-Med， 并 将 上 述 模型 应 用 于 疫情 新 
闻 文 本 中 各 类 要 素 的 识别 。 为 了 检验 不 同 模型 
的 识别 效果 ， 分 别 对 MSRA 数据 集 和 医学 文本 
数据 集 进 行 训练 集 、 测 试 集 的 划分 ， 以 供 模型 
COV19News-Base fil fi 型 COV19News-Med 在 
源 领 域 的 训练 和 检验 ; 并 从 新 闻 文 本 中 分 别 抽 
取 并 标注 100 个 包含 基本 要 素 和 医学 要 素 的 句 


子 ， 作 为 模型 的 目标 域 测试 集 。 

在 进行 模型 训练 前 ， 对 源 领域 训练 集 、 源 
领域 测试 集 和 目标 领域 测试 集中 的 实体 数量 进行 
统计 ， 统 计 结 果 见 表 2， 其 中 模型 COV19News- 
Base 的 源 领域 数据 集 为 MSRA 数据 集 ， 模 型 
COV19News-Med 的 源 领 域 数据 集 为 医学 文本 数 
据 集 ， 两 模型 的 目标 领域 测试 集 均 为 新 闻 文 本 中 
抽取 的 句子 。 从 表 2 中 可 以 发 现 ， 源 领域 数据 集 
存在 不 同 程度 的 实体 分 布 不 均衡 现象 ，MSRA 数 
据 集 中 地 名 实体 明显 多 于 人 名 和 机 构 名 实体 ， 而 
医学 文本 数据 集中 疾病 实体 更 远 多 于 其 他 3 类 实 
体 ， 这 是 由 于 来 自 医学 论文 的 标注 关键 词 集中 大 
部 分 关键 词 属于 疾病 实体 ， 主 要 包括 新 冠 的 大 量 
别称 ， 因 此 造成 了 匹配 实体 数量 分 布 不 均匀 的 问 
题 。 从 目标 领域 测试 集 实体 分 布 的 角度 看 , 人名、 
地 名 、 机 构 名 3 类 实体 分 布 较为 均匀 ， 而 医学 实 
体 中 疾病 实体 仍然 是 出 现 频率 最 高 的 实体 ， 这 与 
新 冠 疫情 新 闻 的 特点 有 关 ( 报道 中 包含 较 多 新 冠 
的 指 代 与 别称 ) 。 实 体 分 布 的 不 均衡 是 否 会 影响 
模型 效果 有 待 实验 考证 。 此 外 ， 医 学 文本 数据 集 
的 规模 相对 MSRA 数据 集 较 小 ， 因 此 可 供 训 练 
的 实体 数量 相对 较 少 ， 可 能 会 对 模型 效果 造成 影 
响 ， 具 体 有 待 后 续 探 究 。 
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表 2 数据 集中 实体 的 数量 统计 情况 


Pi ee 实体 数量 统计 /个 
模型 实体 类 别 - = TENE 
源 领域 训练 集 源 领 域 测试 集 目标 领域 测试 集 
COV19News KY 8 144 2 748 73 
地 点 16 571 5 609 80 
机 构 9 277 3 169 83 
COV19News 疾病 13 443 2 178 82 
HRY 症状 1734 309 57 
药物 1183 202 30 
方法 1 986 347 35 
基于 BERT-BiLSTM-CRF 模型 ， 使 用 上 系 的 强度 ， 为 疫情 新 闻 要 素 知识 图 谱 的 构建 提 


述 训练 数据 分 别 训练 模型 COV19News-Base 和 
模型 COV19News-Med。BERT 采用 多 层 的 双 
向 Transformer” 编码 器 结构 ， 能 够 捕捉 长 距离 
上 下 文 的 语义 特征 ， 从 而 得 到 较为 精确 的 文本 
向 量 ，BiLSTM 采用 二 重 逆序 的 LSTM 网 络 ， 
能 够 充分 学 习 向 量 间 双向 的 语义 关系 ; CRF 则 
能 够 依照 序列 标签 的 约束 规则 ， 输 出 全 局 最 
优 的 标记 序列 。 因 此 ， 采 用 BERT-BiLSTM- 
CRF 模型 进行 模型 训练 ， 在 模型 表示 层 、 网 络 
层 和 输出 层 均 能 取得 较 优 的 学 习 效 果 ， 适 用 于 
COV19News 模型 的 训练 。 模 型 训练 完毕 后 ， 分 
别 基 于 源 领 域 和 目标 领域 测试 集 对 模型 效果 进 
行 检 验 ， 检 验 结 果 见 实验 结果 与 分 析 部 分 。 
3.5 疫情 新 闻 要 素 的 知识 图 谱 构 建 

在 利用 上 述 模 型 实现 对 疫情 新 闻 要 素 的 识 
别 和 提取 后 ， 进 一 步 构 建 疫 情 新 闻 要 素 的 知识 
图 谱 ， 可视化 展现 要 素 间 的 关联 关系 。 

考虑 到 疫情 新 闻 要 素 之 间 存 在 关联 关系 ， 
并 且 要 素 间 的 关联 能 够 揭示 新 闻 的 主体 事件 ， 
因此 对 新 闻 要 素 关 联 关系 的 挖 握 有 助 于 推断 疫 
情 新 闻 的 主要 内 容 ， 对 读者 理解 新 闻 内 容 具 有 
重要 的 意义 。 首 先 将 整 篇 新 闻 文 本 划分 为 句子 
的 集合 ， 然 后 将 在 同一 句子 中 出 现 的 要 素 记 为 
共 现 一 次 , 由 此 计算 两 两 要 素 的 共 现 频次 , 以 “要 
素 A- 要素 B- 共 现 频次 ”的 格式 保存 为 数据 文件 ， 
作为 疫情 新 闻 要 素 的 关联 数据 。 疫 情 新 闻 要 素 
关联 数据 描述 了 要 素 间 的 关联 关系 以 及 关联 关 


供 了 数据 支撑 。 

疫情 新 闻 要 素 知 识 图 谱 能 够 清晰 、 直 观 地 
展现 要 素 关联 及 其 强度 ， 有 助 于 读者 定位 新 闻 
中 的 关键 要 素 ， 进 而 推断 新 闻 的 主要 内 容 。 因 
此 ,基于 新 闻 要 素 关联 数据 ， 以 要 素 作为 节点 ， 
两 要 素 的 共 现 频次 作为 两 节点 连 线 的 权重 ， 进 
一 步 构 建 疫情 新 闻 要 素 的 关联 数据 知识 图 谱 。 
笔者 使 用 网 络 分 析 软 件 Gephi 绘制 疫情 新 闻 要 
素 关 联 知识 图 谱 ， 见 图 2。 由 图 2 可 知 ， 新 闻 中 
与 其 他 要 素 关 联 较 为 紧密 的 关键 要 素 得 到 了 突 
出 显示 ,并且 根据 要 素 间 的 关联 关系 ， 读 者 能 
够 联系 各 个 要 素 , 对 新 闻 的 主要 内 容 进行 推断 。 


药物 F 
疾病 D 
症状 E 


j 
人 物 A 


机 构 C 


方法 G 


FAB 


时 间 


2 使 用 Gephi 绘制 疫情 新 闻 要 素 知 识 图 谱 演示 
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@@O 结 果 与 分 析 
4.1 实验 环境 及 模型 参数 设置 
模型 的 训练 、 测 试 和 迁移 全 部 在 装载 
6GB 显存 的 NVDIA GeForce RTX 2060 显卡 、 
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内 存 16GB、 操 作 系 统 为 Windows10 的 个 人 
计算 机 中 进行 ， 模 型 运行 环境 为 Python3.5 + 
Tensorflow1.12GPU 版 ，CUDA 版 本 为 10.2。 
BERT-BiLSTM-CRF 模型 的 部 分 参数 如 表 3 所 
ZN: 


表 3 模型 参数 设置 


序号 模型 参数 参数 含义 参数 取 值 
1 Batch Size 一 次 送 入 训练 模型 的 样本 (字符 ) 数 128 
2 Segment Embedding Size 表示 BERT 句 子 仍 人 的 向 量 维度 20 
3 Char Embedding Size KRIRBERT FFEA HS E HERE 100 
4 Dropout Rate BiLSTM 网 络 的 遗忘 率 0.5 
5 Learning Rate BiLSTM 网 络 的 学 习 率 0.001 
6 Optimizer 网 络 前 向 传播 使 用 的 优化 器 类 型 adam 
7 Max Epoch 迭代 轮 数 100 


4.2 模型 COV19News-Base 的 测试 与 迁移 

笔者 采用 精确 率 (Precision, P) 、 召 回 率 
(Recall, R ) 以 及 二 者 的 调和 平均 值 (Fl1-measure， 
F1) 评估 模型 的 识别 效果 。 对 于 通常 包含 多 个 
单字 的 实体 ， 当 且 仅 当 模 型 输出 的 实体 标签 序 
列 与 原 标注 序列 完全 相同 时 ， 记 为 正确 识别 实 
体 ， 否 则 记 为 错误 识别 。 在 后 续 实验 中 ，OP、 
OR、OF1 分 别 表示 模 型 在 源 领域 的 P、R、F1 值 ， 
TP, TR, TF1 分 别 表 示 模 型 在 目标 领域 的 P、R、 
F1 值 。 

基于 MSRA 数据 集训 练 模型 COV19News- 
Base， 源 领域 和 目标 领域 的 测试 集 表现 如 图 3 
所 示 。 由 图 可 知 : 中 由 于 同 领 域 的 训练 集 和 测 
试 集 的 实体 分 布 特征 较为 一 致 ， 因 此 模型 在 源 
领域 测试 集 上 表现 出 较 优 的 识别 效果 ，3 类 实体 
的 Fl 值 均 在 90% 以 上 。@ 模 型 迁移 至 目标 领 
域 后 ，3 类 实体 的 识别 效果 均 出 现 了 不 同 程 度 的 
下 降 ， 但 Fl 值 仍 能 保持 在 80% 以 上 。 考 虑 到 
疫情 新 闻 领域 文本 与 MSRA 数据 集 在 实体 分 布 
上 存在 差异 ， 迁 移 后 模型 识别 效果 的 略微 下 清 
符合 预期 。@) 对 3 类 实体 的 识别 效果 进行 相 比 ， 
人 物 实 体 的 识别 效果 最 优 ， 其 次 是 地 点 实体 ， 
机 构 实体 的 识别 效果 最 差 。 地 点 和 机 构 实 体 的 


平均 长 度 通常 大 于 人 物 实体 ， 其 识别 难度 也 相 
对 更 大 ， 因 此 模型 对 不 同 实体 的 识别 效果 存在 
差异 。@ 虽 然 地 点 实体 在 源 数据 集中 的 出 现 频 
率 高 于 其 他 两 类 实体 , 但 其 识别 效果 并 未 更 优 ， 
这 说 明 训 练 集中 实体 的 不 均衡 分 布 并 未 影响 模 
型 效果 。 
4.3 模型 COV19News-Med 的 测试 与 迁移 

复原 模型 的 基础 参数 ， 基 于 医学 文本 数 
据 集 训练 模型 COV19News-Base， 源 领域 和 目 
标 领 域 的 测试 集 表 现 如 图 4 所 示 。 可 以 发 现 : 
中 模型 在 源 领 域 测 试 集 的 表现 仍然 较 优 ，4 类 医 
学 实体 的 识别 Fl 值 均 在 90% 以 上 ， 表 明 BERT- 
BiLSTM-CRF 框 架 具 有 和 较 强 的 表征 和 学 习 能 力 ， 
对 于 不 同 领 域 的 数据 均 能 够 保持 较 好 的 拟 合 效 
果 。@ 虽 然 医学 文本 数据 集 相 较 MSRA 数据 集 
规模 较 小 , 但 在 源 领 域 测试 集 的 表现 并 未 落后 ， 
说 明 在 数据 规模 量 级 达标 的 前 提 下 ， 投 入 相对 
少量 的 样本 也 能 使 模型 取得 较 好 的 训练 结果 ， 
不 会 影响 模型 效果 。(3) 将 模型 迁移 至 目标 领域 
后 ， 各 类 实体 的 识别 效果 出 现 了 不 同 程度 的 下 
滑 ， 但 除 药 物 实 体外 ， 其 他 3 类 实体 的 Fl 值 仍 
能 保持 在 80% 以 上 ， 较 符合 预期 。 识 别 效果 下 
降 是 因为 各 类 实体 在 目标 领域 测试 集 的 召回 率 


202310.02985v1 


chinaXiv 


表现 较 差 ， 可 能 因为 医学 论文 文本 与 疫情 新 闻 
文本 中 医学 实体 的 分 布 特征 存在 较 大 差异 ， 导 
致 模型 迁移 后 的 泛 化 效果 不 够 理想 ， 使 得 一 部 
分 目 杨 领 局 中 洽 在 但 未 能 被 柑 型 学习 的 实体 难 
以 被 识别 。 尽 管 如 此 ， 迁 移 后 的 模型 依然 能 
证 较 高 的 识别 精确 紊 。 在 源 领 域 数据 集中 ， 
疾病 实体 的 数量 远 超出 其 他 3 类 实体 ， 疾 病 实 
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体 在 源 领 域 和 目标 领域 测试 集 的 表现 也 最 优 ， 
但 在 目标 领域 测试 集 的 Fl 值 与 症状 、 方 法 两 类 


实体 相 比 差距 已 不 明显 。 这 表明 ， 
衡 的 实体 分 布 可 能 会 对 某 类 实体 在 源 领域 的 识 
别 起 积极 作用 ， 但 是 未 必 对 该 类 实体 在 目标 领 
域 的 表现 产生 较 大 影响 ， 后 者 仍然 与 目标 领域 
的 实体 分 布 特征 有 关 。 


100 90 80 70 60 50 40 30 20 10 0 


10 20 30 40 50 60 70 80 90 100 


97.62 让 一 一 一 一 一 一 一 93.15 


mae ET oe sw 86.90 


1 人 
| 


机 构 地 点 人 物 
GTF1 81.44 86.90 93.15 
OTP 7727 86.90 94.44 
TR 86.08 86.90 91.89 
HOF! 90.71 94.48 97.62 
DOP 89.67 94.10 98.17 
OR 91.78 94.86 97.09 

图 3 模型 COV19News- a 测试 结果 (单位 : %) 


100 90 80 70 60 50 40 30 20 10 


10 20 30 40 50 60 70 80 90 100 


回 TF1 84.38 66.67 
OTP 93.10 88.89 
OTR 77.14 53.33 
HOFI 94.44 90.48 
BOP 94.44 82.61 

OR 94.44 100.00 


83.67 
100.00 
71.93 
90.91 
100.00 
83.33 


84.56 
94.03 
76.83 
99.14 
99.42 
98.85 


4 模型 COV19News-Med 测试 结果 (单位 : 


%) 
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KS 

上 述 实 验 结 果 表 明 ， 基 于 迁移 学 习 方 法 
训练 得 到 的 NER 模型 ， 对 于 目标 领域 疫情 新 
闻 要 素 的 识别 具有 较 好 的 效果 。 为 展示 所 提出 
方法 的 识别 效果 ， 笔 者 在 疫情 新 闻 文 本 中 随 
机 选取 多 个 包含 多 类 要 素 的 句子 ， 使 用 模型 
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COV19News-Base 和 模型 COV19News-Med 对 
其 中 要 素 进 行 识 别 ， 并 基于 时 间 要 素 的 表述 规 
则 构建 正则 表达 式 模板 ， 匹 配 并 识别 句子 中 的 
时 间 要 素 ， 最 后 将 多 个 任务 的 识别 结果 汇总 ， 
部 分 结果 如 表 4 所 示 : 


表 4 疫情 新 闻 要 素 的 识别 结果 举例 


序号 示例 

那 是 2020 年 1 月 21 日 ， 新 型 冠状 病毒 感染 的 肺炎 疫情 正 从 武汉 向 全 {2020 年 1 月 21 日 ， 
1 ” 国 葛 延 ， 合 秋 秋 所 在 的 湖北 黄冈 蘑 春 县 距离 武汉 不 过 百 余 里 ， 黄 

办 是 武汉 之 外 疫情 最 严重 的 地 区 

从 1 月 26 日 出 现 乏 力 、 咳 嗽 等 症状 以 来 ， 吴 娟 父亲 一 直 在 等 和 


2 ”明确 的 诊 AI ase eel areola 感染 的 肺炎 ( 以 下 简 


称 “ 新 冠 肺炎 ” ) ， 他 就 无 法 收治 


出 来 ， 就 是 漏诊 ， 这 样 可 能 造成 一 些 传染 


来 ， 有 扩大 的 风险 


识别 结果 

新 型 冠状 病毒 感 
染 ， 肺 炎 ， 武 汉 ， 翁 秋 秋 ， 湖 北 ， 黄 
K, WAH} 


Afe 44. 人 
FEST 人 月 26 日 ,乏力 ， 咳 嗽 ， 吴 娟 ， 新 型 


冠状 病毒 感染 ， 肺 炎 ， 新 冠 肺炎 } 


ey iain anime “oe 9 日 晚间 在 湖北 省 的 

新 闻 发 布 会 上 表示 ， 新 型 冠状 病毒 侵害 的 部 位 主要 是 肺 部 ， 所 以 { 华 中 科技 大 学 公共 卫生 学 院 ， 徐 顺 
3 “用 核酸 检测 存在 一 定 的 假 阴 性 ， 也 就 是 有 一 部 分 病人 没有 检测 
源 没有 真 


清 ，2 月 9 日 ， 湖 北 省 ， 新 型 冠状 病 


下 地 被 识别 出 ” 毒 ， 核 酸 检测 } 


当 奥 地 利 方面 3 月 4 日 通知 该 邮轮 有 奥地利 男子 感染 新 冠 病毒 


4 时， “歌剧 ”号 邮轮 正 停靠 在 雅典 比 雷 埃 夫 斯 港 ， 出 于 安全 考 。”{ 奥 地 利 ，3 月 4 日 ， 新 冠 病毒 ，“ 歌 
虑 ，“ 歌 剧 ” 号 邮轮 要 求 当 时 在 比 雷 埃 夫 斯 港 上 岸 的 所 有 乘客 尽 “ 剧 ”号 邮轮 ， 雅 典 ， 比 雷 埃 夫 斯 港 } 
HSE FE 
FMS, FH, 35H, IRD ES RIR EEEE T204F ee choy oer pees ay 

5 ”加 高 考 ， 从 武汉 大 学 临床 医学 七 年 制 专业 毕业 后 ， ema So ee eo 
了 三 年 ，2014 年 回 到 武汉 ， 一 直 在 武汉 市 中 心 医 院 工作 See 


4.4 新 冠 疫情 新 闻 要 素 知识 图 谱 的 构建 
基于 上 述 疫情 新 闻 要 素 的 识别 方法 ， 提 取 

新 闻 要 素 并 构建 要 素 关联 数据 ， 进 而 构建 新 冠 

疫情 新 闻 要 素 的 关联 知识 图 谱 。 以 一 篇 标题 为 


Mi 


《家 属 口述 | 一 个 “重症 肺炎 ” 患者 的 最 后 12 天 》 
的 新 闻 报道 为 例 ， 构 建 其 要 素 知识 图 谱 ， 如 图 5 
所 示 : 
BEAR 
SSN 
黄 网 A 
> KIN 和 Ay 
肺炎 
武汉 
黄冈 市 中 医院 


2020 年 1 月 21 日 
5 疫情 新 闻 要 素 关 联 关系 展示 举例 


由 图 5 可知, 该 篇 新 闻 主 要 涉及 时 间 、 人 物 、 
地 点 、 机 构 、 疾 病 要 素 , 其 中 “ 伟 秋 秋 ”“ 武 汉 ”“ 肺 
炎 ” 为 重要 要 素 。 结 合 要 素 关 联 情况 推断 ， 该 
篇 新 闻 的 主要 内 容 为 黄 站 市 民 翁 秋 秋 身 患 新 冠 ， 
并 于 黄冈 市 中 医院 接受 治疗 。 可 见 ， 疫 情 新 闻 
要 素 的 关联 知识 图 谱 能 够 有 效 帮 助 读者 确定 新 
闻 重 点 以 及 推断 新 闻 主 要 内 容 ， 因 此 有 潜力 成 
为 面向 新 冠 疫情 突 发 事件 的 新 型 知识 服务 。 


全 结论 

笔者 提出 了 一 种 多 任务 环境 下 融合 迁移 学 
习 与 深度 学 习 技术 的 疫情 新 闻 要 素 识别 方法 ， 
为 应 急事 件 下 公民 的 信息 获取 提供 了 可 行 的 服 
务 方案 。 首 先 ， 结 合 命 名 实体 识别 与 规则 识别 
方法 ， 通过 多 个 任务 对 多 类 别 的 新 闻 要 素 进行 
识别 。 同 时 ， 为 解决 疫情 新 闻 领 域 数 据 冷 启动 
的 问题 ， 采 用 模型 迁移 的 解决 方案 ， 从 而 得 到 
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识别 效果 较 好 的 跨 领 域 要 素 识 别 模型 。 最 后 ， 
将 识别 方案 应 用 于 大 量 新 冠 疫情 新 闻 文 本 ， 基 
于 识别 到 的 新 闻 要 素 构 建 要 素 关 联 数据 知识 图 
谱 ， 从 而 帮助 新 闻 读者 直观 、 快 速 地 发 掘 新 闻 
关键 要 素 及 主要 内 容 。 

通过 对 模型 测试 和 迁移 的 效果 进行 比较 ， 
得 到 以 下 结论 : @ BERT-BiLSTM-CRF 三 层 结 
构 模 型 适用 于 不 同 领域 的 命名 实体 识别 任务 ， 
且 源 领域 各 类 实体 识别 的 Fl 值 均 在 90% 以 上 ; 
@) 将 模型 由 源 领 域 迁 移 至 目标 领域 后 ， 模 型 的 
识别 效果 有 下 降 趋势 ， 但 尚 保 持 在 可 接受 的 范 
围 内 ， 大 部 分 实体 识别 的 Fl 值 均 在 80% 以 上 ; 
@ 若 源 领 域 训 练 数据 中 实体 分 布 极 不 均衡 ， 可 
能 导致 对 某 类 实体 的 过 度 学 习 ， 在 源 领域 中 对 
该 类 实体 的 识别 效果 远 优 于 其 他 实体 ， 但 是 否 
会 影响 目标 领域 实体 的 识别 仍 有 待 后 续 人 研究 。 

综 上 所 述 ， 笔 者 提出 的 基于 迁移 学 习 的 要 
素 识别 方法 对 于 新 冠 疫情 新 闻 要 素 具 有 较 优 的 
识别 效果 。 但 本 研究 尚 存在 部 分 类 别 实体 识别 
率 较 低 等 问题 。 在 后 续 人 研究 中 ， 将 重点 考虑 将 
实例 迁移 与 模型 迁移 相 结合 ， 使 训练 域 与 目标 
域 的 实体 分 布 更 加 接近 ， 从 而 提升 模型 在 目标 
领域 的 识别 效果 。 
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Research on Identification of COVID-19 News Elements based on Transfer Learning in Multi- 
task Environment 
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Abstract: [Purpose/significance] Under the background of novel coronavirus pneumonia, this paper 
proposes a method of identifying COVID-19 news elements in multi-task environment based on transfer 
learning to provide knowledge services of emergency for the public. [Method/process] Firstly, multiple tasks 
were used to identify news elements: Time elements were identified based on rules; besides, a cross domain 
element recognition model was constructed by integrating model transfer and deep learning methods. On this 
basis, the associated data of COVID-19 news elements was constructed, and the relationship between the 
elements was displayed by knowledge mapping. [Result/conclusion] The experimental results show that the 
Fl values of news elements except Drug are above 80%, which indicates that the transfer learning model can 
achieve fine recognition effect. Moreover, the knowledge map of associated data can intuitively display the 
key elements and main contents of news. In conclusion, the method proposed in this paper can effectively 
identify elements in COVID-19 news, thus it can help readers obtain important information from the news 
accurately and efficiently. 

Keywords: multi-task transfer learning COVID-19 news elements identification named entity 


recognition cold start 


